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摘 要 : [目的 /意义 ] 探 索 科研 人 员 职 业 发 展 情况 及 其 研究 主题 的 变化 规律 不 仅 可 以 揭示 科学 生产 力 发 展 的 内 在 机 制 ,也 
有 助 于 对 科学 事业 的 发 展 提供 更 好 的 政策 指导 与 支持 。[ 方 法 /过 程 ] 基 于 自然 科学 、 社 会 科学 、 艺 术 与 人 文科 学 
的 代表 性 学 科 数 据 , 对 科研 人 员 的 职业 高 峰 进 行 识别 。 在 此 基础 上 以 职业 高 峰 作 为 科研 人 员 学 术 生 涯 的 划分 依 
据 , 采 用 自然 语言 处 理 中 的 Top2Vec 主题 建 模 方法 识别 研究 主题 ,对 科研 人 员 学 术 生 涯 不 同 阶段 所 研究 主题 的 主 
题 相 似 度 和 主题 转换 概率 进行 分 析 。[ 结果 /结论 ] 研究 结果 表明 ,各 学 科 科 研 人 员 总 体 上 在 经 历 职业 高 峰之 后 的 
主题 转换 会 更 加 频繁 ;而 精英 学 者 在 经 历 职业 高 峰 后 其 研究 主题 则 反而 更 加 专 一 。 
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职业 高 峰  Top2Vec 


主题 转换 “主题 相似 度 


加 对 于 科研 人 员 的 职业 生涯 变化 规律 及 其 主题 变迁 
的 研究 一 直 以 来 都 是 图 书 情报 学 领域 的 研究 热点 ,万 
蔓 对 科研 拔尖 人 才 的 研究 更 是 社会 与 学 术 界 关注 的 
ye 。 根 据 马 太 效 应 ”, 科 学 家 个 体 在 职业 生涯 中 
取 每 优秀 成 绩 能 够 带 来 声誉 和 认可 。 这 些 声誉 和 认可 
潭 可 以 转化 为 有 形 资产 , 反 过 来 有 助 于 其 未 来 职 ， 
的 上 成功。 最 近 发 表 在 Nature 上 的 一 项 研究 也 发 现 科研 
大 蔷 职业 生涯 中 通常 会 涉及 一 段 “高 光 时 期 ”(hot 
sté&dk) 。 在 这 段 时 期 内 科学 家 个 体 的 表现 会 大 大 高 于 
其 正常 表现 ,最 为 显著 的 特征 就 是 科学 家 个 人 在 这 段 
时 期 内 的 成 果 备 受 瞩 目 (科研 成 果 被 高 频 引 用 ) 。 
尽管 现 有 的 研究 发 现在 科学 家 职业 生涯 中 存在 类 似 的 
高 光 时 期 或 高 峰 期 ,但 是 鲜 有 研究 去 深入 控 掘 职业 高 


加 快 培育 促进 科技 事业 健康 发 展 ” 。 从 这 个 角度 来 说 ， 
对 科研 人 员 尤 其 是 优秀 科研 人 员 活 动机 制 的 研究 也 是 
为 了 对 科学 事业 的 进一步 发 展 提供 更 好 的 政策 指导 与 
支持 。 因 此 ,有 必要 在 实施 国家 科技 发 展 战略 的 大 环 
境 下 ,对 科研 人 员 尤 其 是 优秀 科研 工作 者 的 科研 学 研 
究 活 动 的 特征 进行 细致 地 探索 与 分 析 。 

由 于 知识 的 发 展 是 连续 的 \ 流 动 的 和 多 领域 交叉 
的 ,科研 人 员 所 研究 主题 的 变化 反映 了 信息 收集 与 知 
识 传递 的 不 断 变化 ””。 另 外 ,近年 来 科学 知识 迅猛 发 
展 ,新 问题 .新 知识 层出不穷 。 有 鉴于 此 ,笔者 尝试 结 
合 科 研 人 员 职 业 高 峰 与 研究 主题 两 个 维度 ,分 别 从 自 
然 科 学 .社会 科学 ,艺术 与 人 文科 学 中 选择 不 同学 科 领 
域 的 数据 ,采用 自然 语言 处 理 (NLP) 方 法 ,从 科研 人 员 
职业 高 峰 的 视角 对 科研 人 员 所 研究 主题 的 变化 进行 具 
体 分 析 , 以 期 对 科研 人 员 以 及 精英 学 者 们 在 职业 高 峰 


峰 前 后 科研 人 员 个 体 的 科研 工作 到 底 发 生 了 何 种 变 
化 ,特别 是 科研 人 员 以 及 精英 学 者 们 在 职业 高 峰 期 前 
后 其 研究 主题 发 生 了 怎样 的 变化 。2019 年 6 H, pH 


前 后 研究 主题 的 变化 特征 取得 更 清晰 的 认 知 和 更 深入 
的 洞 见 。 


2 相关 研究 现状 


中 央 办 公 厅 和 国务 院 办 公 厅 在 《关于 进一步 弘扬 科学 
家 精神 加 强 作 风 和 学 风 建 设 的 意见 》” 中 指出 :要 加 
大 对 优秀 科技 工作 者 和 创新 团队 的 稳定 支持 力度 ,以 


了 解 科学 家 个 体 研究 活动 机 制 及 其 学 术 生 涯 过 程 
中 的 重要 里 程 碑 , 有 助 于 深入 探索 科学 生产 力 的 动态 
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从 社会 学 理论 来 讲 , 年 轻 科 学 家 作为 学 术 界 的 
边缘 人 ”, 在 特定 想法 或 学 术 流 派 中 的 投入 尚 少 , 没 
有 积累 较 多 的 声誉 ,因此 不 用 过 分 担心 科研 失败 带 来 
的 损失 ,往往 也 更 容易 做 出 成 绩 ,同时 年 轻 科 学 家 善于 
从 新 视角 去 看 待 老 问题 ,他 们 兴趣 更 为 广泛 .精力 更 加 
充沛 ,学术 热情 更 高 ,尽管 他 们 缺乏 经 验 , 但 研究 原创 
性 高 ;年 老 科 学 家 虽 在 研究 经 验 的 积累 .独立 判断 、 处 
理 矛 盾 等 方面 更 胜 一 筹 ,但 他 们 缺少 热情 ,会 产生 许多 
没有 灵感 的 作品 也 就 不 容易 做 出 重大 突破 “…” 。B 
F. Jones 等 "通过 对 诺 贝尔 奖 学 者 的 职业 生涯 研究 ， 
发 现 富有 想法 的 年 轻 人 更 容易 在 硬 科 学 (hard science) 
研究 中 做 出 重大 突破 。 此 外 ,学 术 界 有 许多 研究 工作 
对 科研 人 员 的 职业 高 峰 及 其 所 对 应 的 科研 成 就 展开 了 
研究 ”“”。 这 些 研究 工作 虽然 对 科研 人 员 的 学 术 生涯 
BIET TER 但 是 对 职业 高 峰 的 界定 并 不 统 
SRR LATTE — ,并 没有 关注 伴随 科研 人 员 职 
条 的 科研 工作 发 生 了 怎样 的 变化 。 在 2020 年 最 
一 项 研究 中 ,研究 者 在 证 实 诺 贝 尔 奖 得 主 比 其 他 
和 家 在 学 术 生涯 早期 就 拥有 更 多 的 发 文 量 与 更 高 的 
的 同时 ,还 发 现 了 获奖 后 得 主 们 科研 成 果 影 响 
Sa 1 02 
ABRERA Fo tct 了 职业 高 峰之 后 ,在 具体 的 
工作 中 会 发 生 一 些 有 趣 的 变化 。 其 中 ,科研 人 员 

高 峰 前 后 研究 主题 的 变化 成 为 学 术 界 关注 的 一 个 


外 上 有 前 上 性 的 主题 可 能 会 促使 高 影响 力 研究 成 果 
ME, 这 不 仅 可 以 提高 科学 家 的 声誉 ,也 可 以 给 整个 

领域 创 造 研 究 机 会 。 鉴 于 研究 主题 对 科研 人 员 个 体 学 
术 生 涯 以 及 对 学 科 和 创新 政策 的 影响 ,迫切 地 需要 采 
取 定 量 方法 来 理解 科学 家 们 在 整个 学 术 生涯 中 其 研究 
主题 是 如 何 变 化 的 。 近 年 来 ,国内 外 学 术 界 均 有 
学 者 聚焦 于 量化 和 模拟 科学 家 学 术 生 涯 中 研究 主题 的 
演变 ”” 。 尽 管 研究 主题 的 频繁 变化 可 能 会 带 来 失 


年 内 的 数 百 万 篇 生物 医学 论文 发 现 , 生 物 医学 领域 的 
科学 家 越 来 越 追 求 保守 的 研究 策略 ,倾向 于 探索 中 心 
主题 的 局 部 邻 域 而 不 是 进行 大 跨度 的 主题 转换 ;T. Jia 
等 “ 则 以 物理 学 领域 的 分 类 代码 为 依据 ,发 现 物 理学 
家 的 研究 兴趣 从 学 术 生 涯 的 开始 到 学 术 生 涯 的 结束 ， 
其 间 发 生 了 极 大 的 转变 ;A，Zeng 等 ”在 最 近 的 一 项 
研究 中 发 现 ,如 今 的 科研 人 员 相 比 更 早 的 研究 者 更 频 
繁 地 在 不 同 主题 之 间 切 换 ,并 且 学 术 生 涯 早期 的 高 转 
换 率 与 较 低 的 整体 生产 力 有 关 。 

综 上 ,学 术 界 关于 科研 人 员 职 业 高 峰 与 学 术 生涯 
中 研究 主题 转换 的 相关 研究 已 经 分 别 积累 了 一 定 的 成 
Ro 但 在 现 有 的 研究 中 , 鲜 有 学 者 将 科研 人 员 个 体 职 
业 高 峰 与 其 研究 主题 转换 联系 起 来 进行 分 析 。 有 鉴于 
此 ,笔者 从 自然 科学 、 社 会 科学 、 艺 术 与 人 文科 学 3 个 
学 科 领 域 中 分 别 选取 代表 性 学 科 , 对 科研 人 员 以 及 精 
英 学 者 们 学 术 生 涯 中 不 同 阶 段 的 研究 主题 变化 特征 进 
行 深 入 研究 ,以 期 为 揭示 科学 生产 力 发 展 机 制 提供 可 
资 借鉴 的 参考 。 


3 ”相关 理论 基础 


3.1 科研 人 员 研 究 主题 识别 
识别 科研 人 员 的 研究 主题 , 主要 是 通过 对 其 已 发 
表 的 成 果 文 献 进行 自然 语言 处 理 (NLP) ,从 中 发 现 大 
型 文档 集合 中 的 潜在 语义 结构 ,通常 也 被 称 为 主题 分 
类 。 当 前 应 用 最 广泛 的 主题 建 模 方法 包括 概率 潜在 语 
义 分 析 (probabilistic latent semantic analysis , PLSA ) 5 
Tu Em E A y E id dH (latent dirichlet allocation, 
LDA) ”等 方法 。 这 些 建 模 方法 在 学 术 研 究 中 很 
比如 为 了 使 模型 达到 最 
佳 效果 ,在 建 模 之 前 通常 需要 做 一 些 预 处 理 ,如 自 定义 
停 用 词 列 表 、 进 行 词 干 提取 、 词 元 化 以 及 花费 大 量 精力 
去 预先 设置 合适 的 主题 数量 等 。 此 外 ,大 部 分 主题 建 
模 方法 依赖 于 文档 的 词 袋 表示 ,忽略 了 单词 的 顺序 和 


败 和 生产 力 下 降 的 风险 ,但 是 也 有 研究 表明 一 个 稳定 
而 又 有 重点 的 研究 团队 虽然 有 助 于 科学 家 保持 生产 
力 , 但 却 不 利于 创新 ””。 通 常 而 言 ,科研 人 员 在 其 
学 术 生 涯 过 程 中 所 研究 的 主题 内 容 不 可 能 是 一 成 不 变 
的 ,科学 家 转换 自己 的 研究 主题 可 能 是 在 保守 与 冒险 
之 间 权 衡 的 结果 。A. Hoonlor 等 ”选择 计算 机 领 
域 的 期 刊 与 会 议论 文 进 行 分 析 发 现 ,科学 家 的 研究 重 
点 大 约 以 10 年 为 一 个 周期 发 生变 化 ,只 有 少 部 分 研究 
者 在 同一 主题 年 复 一 年 地 长 期 发 表 文章 ; A. Rzhetsky 
等 ' 引 将 学 科 知 识 建 模 为 网 络 ,通过 分 析 发 表 在 30 多 


语义 。 为 了 克服 这 些 缺 陷 , 笔 者 采用 2020 年 最 新 提出 
的 Top2Vec'” 主题 建 模 方法 对 科研 人 员 公开 发 表 的 文 
献 进行 主题 建 模 以 识别 其 研究 主题 。 

Top2 Vec 作为 一 种 分 布 式 主题 向 量 模型 , 它 利用 


文档 和 单词 的 语义 铭 入 来 寻找 主题 。 在 语义 空间 中 发 
现 的 文档 密集 区 域 的 数量 被 认为 是 突出 主题 的 数量 。 


其 中 ,主题 向 量 是 从 文档 的 密集 区 域 中 计算 出 来 的 , 密 
集 区 域 是 由 非常 相似 的 文档 组 成 的 ,通过 计算 “质心 ” 
(centroid) 来 得 到 主题 向 量 , 即 同一 密集 篮 中 所 有 文档 
向 量 的 算术 平均 值 。“ 质 心 ” 能 够 很 好 地 代表 文档 密 
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等 .科研 人 员 职 业 高 峰 前 后 的 研究 主题 转换 特征 识别 []]. 图 书 情 报 工作 ,2021,65(16) :81 - 89. 


集 区 域 的 主题 向 量 ,最 接近 这 个 主题 向 量 的 词 也 就 是 
在 语义 上 能 够 最 好 地 描述 它 的 词 。 最 终 得 到 的 主题 向 
量 与 文档 和 词 向 量 的 共同 虑 入 , 词 向 量 之 间 的 距离 表 
示 语 义 相似 度 。Top2Vee 生成 的 主题 也 被 证 明 比 概率 
生成 模型 具有 更 大 的 信息 量 以 及 包含 更 具有 代表 性 的 
语 料 。 该 模型 不 需要 去 停 用 词 ,也 无 需 进行 词 干 提取 
和 词 元 化 等 预 处 理 , 它 可 以 自动 查找 主题 数量 。 其 主 
要 操作 过 程 如 图 1 所 示 : 


e Q werd ® document outlier — Ql topic vector 
"UD © 
oec? s 
e 
T "Os .. 
o e O 
"ME LR. " 
CO 图 1 基于 top2vec 主题 建 模 的 操作 过 程 示例 


< 二 在 图 1 中 ,Top2Vec 主题 建 模 的 具体 操作 步骤 如 
DUERA. 使 用 Sentence Transformer 创建 
衫 2 的 文档 和 词 向 量 。 图 1(a) 显示 了 一 个 语义 空间 
的 避 例 。 灰 色 的 点 是 文档 ,空心 的 点 是 单词 。 单 词 最 
括 刘 它们 最 能 代表 的 文档 ,相似 的 文档 也 靠 得 很 近 。 

用 UMAP ( uniform manifold approximation and pro- 
jectfon ) 创建 文档 向 量 的 低 维 拒 入 。 高 维 空间 中 的 文 
档 询 量 非常 稀疏 , 降 维 有 助 于 发 现 密集 区 域 ,其 中 每 一 
点 都 是 一 个 文档 向 量 。 国 使 用 HDBSCAN 查找 文档 的 


为 单个 文档 处 理 , 每 个 类 别 可 以 被 看 作 是 一 个 非常 长 
的 文档 ,所 得 到 的 C-TF-IDF 分 数 可 以 反映 一 个 主题 中 
重要 单词 的 权重 。 它 可 以 提取 使 每 个 主题 有 相对 于 其 
他 主题 独特 的 元 素 。 公 式 (1) 如 下 所 示 : 


t 
C - TF - IDF, = — x log — 公式 (1) 
245 


在 公式 (1) 中 ,对 每 一 类 主题 i 提取 每 个 单词 i 的 
频次 i,, 除 以 该 主题 总 单词 数 w,, 这 是 主题 高 频 词汇 的 
一 种 规则 化 形式 ;再 用 文档 总 数 m. 除 以 单词 i 在 所 有 
类 nn 中 的 总 出 现 频次 ,将 其 转化 为 对 数 形式 后 与 前 一 
项 相 乘 ,以 此 完成 科研 人 员 研 究 主题 的 识别 。 

3.2 ”主题 相似 性 和 主题 转换 概率 

笔者 选取 主题 相似 度 得 分 和 主题 转换 概率 两 个 指 
标 来 测量 科研 人 员 研 究 主题 的 变换 情况 。 相 似 度 得 分 
可 以 衡量 科研 人 员 在 不 同 主题 转换 过 程 中 到 底 进行 了 
多 大 幅度 的 主题 迁移 ;主题 转换 概率 用 于 判断 科研 人 
员 研 究 主 题 转换 频率 的 高 低 。 研 究 工 作 采 用 余弦 相似 
度 计算 主题 间 的 相似 性 得 分 ,该 方法 已 经 被 证 实 是 当 
前 自然 语言 处 理 中 应 用 最 广泛 的 语义 距离 测度 方法 。 
余弦 相似 度 (Cosine Similarity ) 算 法 是 根据 两 个 词 向 量 
之 间 的 余弦 夹 角 判断 词 向 量 之 间 的 相似 性 ,余弦 值 越 
接近 1 ,就 表明 夹 角 越 接近 0 度 , 也 就 是 两 个 向 量 越 相 
似 , 夹 角 等 于 0, 即 两 个 向 量 相等 ,公式 (2) 如 下 所 示 : 


Similarity 2 c0(0)-.—5. P 5i. AXB, 
5TA TIBI Sa) x 
公式 (2) 


其 中 ,4 和 B, 表示 的 是 两 类 主题 所 包含 的 文档 词 


密 绒 区域 并 计算 主题 向 量 。 对 文档 向 量 采 用 基于 层次 
密度 的 空间 聚 类 (HDBSCAN ) ,以 聚 类 数量 代替 主题 数 
量 。HDBSCAN 作为 一 种 基于 密度 的 聚 类 方法 对 于 所 
识别 的 异常 值 不 用 于 计算 “质心 ”, 它 不 会 强制 每 个 文 
档 都 必须 分 到 某 一 类 别 ,而 是 将 这 些 未 被 分 人 主题 集 
群 的 文档 设 为 离 群 值 。 在 图 1(b) 中 , 浅 灰 色 点 即 是 不 
属于 特定 集群 的 异常 值 。 对 每 一 组 属于 密集 聚 类 的 文 
档 向 量 进行 “质心 ”计算 ,为 每 一 主题 生成 一 个 主题 向 
量 (图 1(b) 中 黑色 点 )。@ 基 于 C-TF-IDF 的 关键 词 提 
取 。 完 成 主题 聚 类 之 后 还 需要 基于 内 容 探 究 一 个 主题 
与 另 一 个 主题 的 不 同 。 采 用 基于 TF-IDF ”的 变 体 C- 
TF-IDF 进行 主题 词 探索 , C-TF-IDF 是 一 个 基于 类 的 
TF-IDF 过 程 ,其 中 C 表示 CLASS 类 , 它 可 以 根据 文本 
文档 所 在 的 主题 类 别提 取 它 们 的 生成 特性 。 与 传统 的 
TF-IDF 不 同 的 是 ,C-TF-IDF 并 非 用 来 比较 不 同文 档 之 
间 单 词 的 重要 性 ,而 是 将 单个 主题 类 别 中 所 有 文档 作 


向 量 的 特征 , || A || FIL [| B | 是 两 个 词 向 量 的 12 范 数 ， 
e 是 词 向 量 4 和 B 之 间 的 角度 ,Similarity 表示 余弦 相 
似 度 的 最 终 得 分 。 基 于 已 经 完成 的 主题 识别 ,采用 以 
上 公式 计算 不 同 主题 之 间 的 相似 性 。 根 据 主题 相似 度 
得 分 分 别 构建 单个 科研 人 员 研 究 主题 相似 度 得 分 矩 
阵 , 如 表 1 所 示 : 

表 1 单个 科研 人 员 主 题 相似 度 得 分 矩阵 


201 105 w3 w4 Ut Wy 
wi 5H 512 513 514 i Sin 
Wy 325 523 524 ya 52n 
"us 533 534 eee 53n 


V, DU Snn 


在 表 1 中 ,n 表示 文献 的 总 数 ,w, 表示 科研 人 员 的 
第 nn 篇 文献 ,s; 表 示 依 据 余弦 相似 度 得 出 的 文献 i 和文 
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Kj 的 相似 度 分 数 。 在 此 基础 上 ,采用 公式 (3 ) 计算 单 
个 科研 人 员 某 段 时 期 内 所 有 文献 的 主题 相似 度 得 分 。 
一 让 公式 (3) 

在 公式 (3) 中 ,SIM,, 表 示 单 个 科研 人 员 某 段 时 期 
内 所 有 文献 的 相似 度 得 分 。 一 段 时 间 内 某 科研 人 员 所 
发 表 论 文 主题 的 相似 度 得 分 越 低 , 说 明 在 这 段 时 期 内 
科研 人 员 研 究 主题 的 跨度 越 大 。 此 外 ,个 体 科研 人 员 
的 主题 转换 概率 计算 公式 如 下 所 示 : 

l, t, =n and nz 


sIM,, = 


(1<i<j<n) 


t 2nzl 
Switch Probability — EG 


t,#n 


一 公式 (4) 
全 其 中 心 表 示 科 研 人 员 发 表 论 文 的 总 数 ,表示 科 
研 信 员 所 包含 文献 的 主题 数量 。Suwizoh Probability 表 
示 金 题 转换 概率 ,主题 转换 概率 越 高 表示 科研 人 员 在 
不 同 研究 主题 之 间 转 换 的 概率 越 频 繁 ;主题 转换 概率 
越 傈 ,表示 该 科研 人 员 的 研究 主题 越 专 一 。 


开 究 方法 与 流程 
CD 数据 来 源 与 流程 框架 


CN 在 多 学 科 视角 下 ( 自然 科学 .社会 科学 .艺术 与 人 
SPP 探测 科研 人 员 高 峰 期 前 /后 的 科研 主题 变化 特 


4 


和 需要 在 以 和 


FE 仅 针对 某 单 


更 多 的 因素 。 针 对 单一 学 科 
,但 多 学 科 视野 下 学 科 


一 学 科 领 域 


的 基础 上 考虑 


的 研究 无 需 
间 差别 悬殊 


参 虑 文档 数量 
的 文档 数量 可 


能 篇 给 主题 建 模 与 统计 结果 造成 偏 倚 , 不 利于 学 科 间 
的 横向 比较 。 基 于 这 一 原因 ,笔者 选取 了 真菌 学 .图书 
情报 学 .哲学 3 个 在 文档 数量 上 大 体 相 当 的 学 科 分 别 
作为 自然 科学 .社会 科学 .艺术 与 人 文科 学 的 代表 。 以 
Web of Science 核心 数据 库 作 为 基础 数据 来 源 ,采用 高 
级 检索 ,检索 式 分 别 为 “SU = MYCOLOGY” “SU = 
INFORMATION SCIENCE & LIBRARY SCIENCE” “SU 
= PHILOSOPHY” ,检索 日 期 为 2020 年 11 月 1 日 , 检 
索 时 间 段 为 1985 年 至 今 ,将 文献 类 别 限 定 为 “Arti- 
cle”, 语 种 限定 为 “English”, 最 终 获得 158 446 篇 文献 。 
其 中 ,真菌 学 文献 43 000 篇 ,图 书 情报 学 文献 65 961 
篇 ,哲学 文献 49 485 篇 。 在 此 基础 上 ,进一步 提取 文献 
中 所 包含 的 作者 ,并 按照 所 属 学 科 进 行 分 组 。 根 据 
ORCID 标识 符 对 重 名 作者 进行 人 工 核查 且 不 重复 计 
数 , 共 得 到 266 388 位 作者 。 其 中 ,真菌 学 113 241 位 ， 
图 书 情报 学 106 730 位 ,哲学 46 417 位 。 


此 外 ,考虑 到 原 Top2Vec 算法 所 依赖 的 Tensor- 
Flow-Text 安装 包 对 Windows 系统 的 限制 ,因此 为 了 使 
研究 方法 具有 更 好 的 泛 化 性 和 研究 复 现 性 ,笔者 在 深 
度 学 习 PyTorch 框架 下 使 用 基于 Top2Vec 的 主题 建 模 
方法 。 相 比 于 原本 的 Top2Vec 建 模 方法 ,不 仅 保留 了 
原 模型 的 内 核 ,同时 具有 更 好 的 系统 兼容 性 。 

传统 认 知 下 ,重要 奖项 、 高 水 平成 果 等 都 可 以 作为 
科研 人 员 职 业 高 峰 的 标志 。 但 学 术 界 中 重要 奖项 风 毛 
Wifü ,不 足以 据 此 考量 更 广泛 的 科研 人 员 队 伍 。 且 奖 
项 更 侧重 学 术 界 对 此 前 成 就 的 认可 ,而 不 是 科学 人 研究 
本 身 在 获奖 时 达到 最 高 峰 。 因 此 ,学 术 界 主要 采用 高 
被 引 论文 作为 识别 科研 人 员 职 业 高 峰 的 依据 ,特别 是 
针对 长 时 间 周 期 某 单一 学 科 进 行 研 究 时 , 主要 采用 设 
定 统一 年 限 ( 如 10 年 ) 内 的 引文 频次 ””。 考 虑 到 本 
研究 对 象 跨越 3 个 学 科 门 类 , 且 论 文 半衰期 (half life) 
受到 文献 类 型 ,学科 性 质 等 多 方面 因素 的 影响 ,不 适合 
采用 统一 年 限 内 的 引文 频次 作为 标准 ,加 之 “ 睡 美人 ” 
文献 等 因素 的 影响 ,笔者 使 用 绝对 被 引 频 次 最 高 的 论 
文 作为 科研 人 员 职 业 高 峰 的 标志 ,并 将 最 高 被 引发 表 
当年 视 为 该 科研 人 员 达 到 职业 高 峰 。 

具体 的 研究 工作 按照 以 下 流程 :中 采用 Top2Vec 
模型 对 所 获得 文献 进行 主题 建 模 ,并 对 小 众 主 题 进 行 
归并 ;@ 计 算 高 峰 期 前 /后 各 自 时 段 内 部 主题 相似 度 与 
主题 转换 概率 ,比较 分 析 科 研 人 员 整 体 在 高 峰 期 前 /后 
各 时 段 内 部 的 主题 转换 特征 ;@) 筛 选 精英 学 者 ,计算 精 
英 学 者 高 峰 期 前 与 高 峰 期 后 的 主题 相似 度 与 主题 转换 
概率 差 值 ,分 析 精 英 学 者 经 历 高 峰 期 前 后 的 主题 转换 
村 征 。 
4.2. 主题 分 布 总 体 概况 

人 研究 工作 将 真菌 学 (43 000 篇 ) .图书 情报 学 
(65 961 篇 ) .哲学 (49 485 篇 ) 文 献 的 摘要 作为 研究 的 
基础 语 料 数据 ,采用 基于 Top2Vec 的 主题 识别 方法 对 
其 进行 主题 建 模 。 建 模 过 程 中 预先 设置 阔 值 ,限制 每 
个 主题 集群 所 包含 的 文档 数量 不 少 于 20 篇 。 分 别 得 
到 3 个 学 科 1985 年 至 今 研究 主题 的 分 布 结果 见 图 2。 

在 图 2 中 ,(a) (b) (ec) 分 别 为 真菌 学 .图 书 情 报 
学 .哲学 3 个 学 科研 究 主 题 分 布 的 可 视 化 结果 。 图 中 
的 节点 为 已 发 表 的 文献 ,不 同 深浅 程度 的 区 域 所 表示 
的 是 不 同 的 主题 , 浅 灰 色 表 示 的 是 不 被 归 为 任意 一 个 
主题 的 离 群 值 , 对 突出 主题 的 高 权重 主题 词 进行 了 标 
记 , 这 些 主题 词 代表 了 其 所 属 主题 的 关键 信息 。 

真菌 学 经 过 主题 建 模 得 到 56 个 主题 。 从 图 2(a) 
中 可 以 清晰 地 看 出 该 学 科研 究 主 题 分 散 度 非常 高 ( 充 


84 


陈 立 雪 ， 腾 广 青 ， 吕 晶 ,， 等 .科研 人 员 职 业 高 峰 前 


ChinaXiv 合 作 期 刊 
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2 各 学 科 主 题 分 布 


斥 大 量 浅 灰色 离 群 值 ) ,缺少 聚集 海量 文献 的 主题 , 且 
离 群 值 (文献 ) 数 量 较 多 。 包 含 文 献 数 相对 较 多 的 主 
WE topic26 ,topic29 和 topic51。 其 中 ,patient( 病 人 )、 
ion( 感 染 ) .treatment( 治疗 ) 和 antifungal( 抗 菌 的 ) 
ee ERN topic26 主要 涉及 的 内 容 是 传 
Aitor ; protein( 蛋白质) cerevisiae ( 菌株 ) ,gene( 基 
POR mutant ( 突变 ) 这 些 高 权重 主题 词 则 反映 topic29 
是 基因 遗传 有 关 的 研究 ;topic51 中 的 高 权重 主题 词 有 
déeribe( 描述 ) new( 新 的 ) .genus( 物 种) 和 phylogenet- 
RREN), 表明 该 主题 是 生物 物种 相关 研究 。 
队 中 之 外 ,其 他 的 主题 所 包含 文档 数量 都 较 少 ,但 是 该 
学 种 研究 主题 总 数 又 很 多 ,这 也 在 一 定 程度 上 显示 了 
真 泌 学 学 科 的 复杂 与 多 样 性 。 
>< 图 书 情报 学 的 主题 建 模 结果 得 到 了 46 个 主题 
在 图 2(b) 中 可 以 看 到 ,最 为 突出 的 主题 是 topic14 top- 
HN .topic39 ,topic40 和 topic9。 根 据 各 主题 中 
简 权 重 主题 词 可 以 推断 出 各 主题 的 研究 分 别 集中 在 
医学 信息 学 (topic14) .知识 组 织 (topic44) 、 网 络 信息 传 
播 (topic26 ) 文献 计量 (topic39)、 高 校 图 书馆 
(topic40 ) 知识 服务 (topic9 ) 领域 。 这 六 大 主题 构成 了 


图 书 情报 学 学 科 的 核心 研究 主题 。 除 了 核心 主题 ,该 
学 科 还 存在 其 他 包含 文档 数量 较 少 的 小 众 主题 ,并 且 


这 些小 众 主题 大 多 游离 在 中 心 主题 外 的 边缘 区 域 ,这 
也 说 明 小 众 主题 与 核心 主题 的 研究 内 容 差 别 较 大 。 
哲学 学 科 的 主题 建 模 结果 得 到 41 个 主题 ,如 图 2 
(ec) 所 示 。 可 视 化 结果 显示 该 学 科 的 主题 具有 高 度 的 
聚集 性 , 绝 大 多 数 文献 被 归 入 位 于 中 央 区 域 的 topic40 。 
WA 主题 词 包 括 science (RE^) .theory( 理 
论 ) „knowledge ( 知识 ) 和 history ( 历史 ) ,属于 哲学 基础 
晶 论 研究 。 此 外 ,较为 突出 的 主题 还 有 topic9 ,topicl7 
和 topic31。 对 照 各 个 主题 中 的 高 权重 主题 词 不 难 发 
现 ,其 研究 内 容 主 要 为 医药 哲学 农业 哲学 、 科 学 哲学 


i 


等 ,这 也 是 此 类 主题 分 布 处 于 大 量 文献 集群 之 外 的 边 


缘 区 域 的 一 个 原因 ,这 类 主题 不 与 其 他 任何 一 个 主题 
有 高 度 的 主题 相关 性 。 


综合 上 述 情况 可 以 发 现 ,哲学 主题 对 文献 的 聚集 
性 最 高 且 学 科 内 部 主题 数量 最 少 ;真菌 学 主题 分 布 最 
为 松散 且 主 题 总 数 也 最 多 ;图 书 情报 学 介 于 二 者 之 间 ， 
但 其 聚 类 结果 中 包含 大 量 文 献 的 主题 数量 是 最 多 的 。 
考虑 到 本 研究 基于 Top2Vec 主题 建 模 方法 所 得 到 的 主 
题 分 布 结果 中 ,各 学 科 的 众多 主题 中 包含 大 量 基于 少 
量 文献 的 小 众 主题 。 为 了 减少 小 众 主 题 对 实验 结果 的 
影响 ,因此 笔者 采用 C-TF-IDF 对 主题 数量 进行 压缩 。 
通过 迭代 计算 每 个 主题 之 间 的 余弦 相似 度 , 比较 主题 
之 间 的 C-TF-IDF 向 量 ,合并 最 相似 的 向 量 , 最 后 重新 
eo aa 大 到 将 

含 文 档 数量 少 的 边缘 主题 与 最 相似 的 主题 进行 合并 
a 
报 学 的 研究 主题 被 缩减 至 24 个 ,哲学 的 研究 主题 被 缩 
减 为 20 个 。 各 学 科 包 含 文献 量 最 多 的 前 5 个 主题 如 
表 2 所 示 : 


R2 重组 后 的 各 学 科 Tops 主题 
图 书 情报 学 
医学 信息 学 7854 
知识 组 织 
文献 计量 
网 络 信息 传播 
高 校 图 书馆 


基因 遗传 
生物 物种 
传染 病 学 
临床 医学 
细胞 结构 


de 2 按照 各 学 科 主 题 所 含 文献 数量 降序 排列 。 然 
而 ,发 现 3 个 学 科 主题 分 布 的 特征 与 差异 性 并 非 本 研 
究 的 目的 ,此 处 得 出 的 各 学 科 主 题 分 布 特征 与 主题 归 
纳 结果 , 仪 作为 后 续 判 识 研 究 人 员 研 究 主 题 转换 与 迁 
移 的 基础 。 


哲学 
哲学 基础 理论 
7640 “生物 与 农业 哲学 
3 109 ”医药 与 疾病 哲学 
健康 与 护理 哲学 


3 945 24 784 


3 302 1 498 


> 


2 577 3 205 1412 


983 1 383 


865 3 007 758 
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5 研究 结果 


5.1 ”主题 相似 性 与 转换 概率 的 宏观 分 析 

为 保障 实验 结果 的 有 效 性 ,研究 工作 对 此 前 得 到 
的 266 388 位 作者 进一步 第 查 。 首 先 删 除 具 有 缺失 值 
的 数据 ,其 次 选取 发 表 文 献 数 不 低 于 5 篇 的 科研 人 员 。 
最 终 得 到 真菌 学 作者 5 427 位 ,图 书 情报 学 作者 3 912 
位 ,哲学 作者 1 371 位 。 将 科研 人 员 被 引 频 次 最 高 文 
献 的 发 表 作为 判定 其 达到 职业 高 峰 的 标准 ,以 科研 人 
员 最 高 被 引文 献 发 表 当 年 为 职业 高 峰 期 ( Career Peak, 
CP) ,根据 公式 (3 ) 对 科研 人 员 职 业 高 峰 期 前 .职业 高 
峰 期 当年 .职业 高 峰 期 后 的 主题 相似 度 得 分 进行 计算 。 
同时 ,为 了 进一步 对 科研 人 员 研 究 主题 的 转换 特征 进 
行 分 析 , 采 用 公式 (4) 对 应 计算 不 同时 期 各 学 科 科研 
人 高 主题 转换 概率 。 所 得 结果 如 表 Bos: 

表 3 高 峰 期 前 后 主题 相似 性 及 转换 概率 


指标 真菌 学 ”图书 情报 学 ”哲学 
similarity 0. 435 0. 600 0. 840 
probability 0.271 0.274 0.204 
similarity 0. 396 0. 560 0. 849 
probability 0.229 0.186 0.157 
similarity 0. 401 0. 584 0. 847 
probability 0. 304 0. 334 0.255 


注 :pre-CP 表示 职业 高 峰 前 ;CP 表示 职业 高 峰 ;post-CP 表示 职 


OR 3 记录 了 不 同学 科 科研 人 员 在 达到 职业 高 峰之 
前 人 职业 高 峰 期 当年 以 及 职业 高 峰之 后 发 表 成 果 的 平 
均 宇 题 相似 度 得 分 ,以 及 科研 人 员 个 体 研究 主题 发 生 
转 钢 的 概率 。 从 不 同学 科 科 研 人 员 研 究 主题 的 整体 相 
似 性 来 看 , 哲学 学 科 的 主题 相似 度 得 分 最 高 ( > 
0. 840) .同时 ,该 学 科 的 主题 转换 概率 相 比 其 他 两 个 学 
科 也 是 最 低 的 。 这 意味 着 哲学 领域 的 科研 人 员 在 学 术 
生涯 的 不 同 阶段 内 部 ,个 体 科研 人 员 不 同 研究 成 果 的 
研究 主题 具有 较 高 的 相似 性 ;对 应 的 主题 转换 概率 也 
表明 ,哲学 领域 的 科研 人 员 在 每 个 学 术 生 涯 阶段 内 部 
并 不 会 发 生 太 频繁 的 主题 迁移 。 另 一 方面 ,真菌 学 领 
域 科研 人 员 研 究 主题 的 平均 相似 度 得 分 最 低 ( < 
0.435) ,说 明 真 菌 学 领域 科研 人 员 在 不 同 阶段 内 部 的 
研究 主题 跨度 最 大 ;图 书 情报 学 领域 科研 人 员 在 不 同 
阶段 的 主题 相似 度 得 分 表明 ,该 领域 科研 人 员 的 主题 
跨度 略 小 于 真菌 学 。 但 是 从 主题 转换 概率 的 计算 结 

看 ,图 书 情报 学 领域 科研 人 员 在 高 峰 期 前 /后 均 比 真菌 
学 有 更 大 的 概率 发 生 主 题 转换 ,在 高 峰 期 当年 主题 转 


换 的 概率 小 于 真菌 学 。 

上 述 分 析 说 明 不 同学 科 的 科研 人 员 在 主题 相似 性 
与 转换 概率 上 存在 一 定 的 差异 ,那么 在 学 科 内 部 从 不 
同时 期 科研 人 员 平 均 主题 转换 概率 的 计算 结果 来 看 ,3 
个 学 科 科 研 人 员 在 高 峰 期 之 后 的 研究 主题 转换 概率 都 
要 高 于 职业 高 峰 期 之 前 。 真 菌 学 科研 人 员 高 峰 期 之 后 
的 主题 转换 概率 相 比 高 峰 期 之 前 提高 了 12. 2% ,图 书 
情报 学 提高 了 21.9% ,哲学 提高 了 25% 。 这 一 结果 表 
明 ,科研 人 员 总 体 队伍 在 经 历 了 职业 高 峰 期 之 后 ,会 在 
不 同 的 研究 主题 之 间 更 频繁 地 转换 自己 的 研究 方向 。 
当然 ,也 从 另 一 个 侧面 反映 出 ,科研 人 在 达到 职业 高 峰 
期 之 前 ,在 研究 主题 上 具有 相对 较 高 的 专 一 程度 。 在 
到 达 职 业 高 峰之 前 ,科研 人 员 更 倾向 于 做 自己 擅长 的 、 
或 是 这 一 时 期 专攻 的 某 项 研究 ;而 在 职业 高 峰之 后 , 科 
研 人 员 开 始 有 更 高 的 职业 自由 度 , 不 再 局 限于 曾经 相 
对 集中 的 研究 主题 ,因此 主题 转换 的 频繁 程度 会 增加 。 
5.2 ”精英 学 者 高 峰 期 前 后 主题 转换 特征 

各 学 科 的 精英 学 者 通常 是 所 在 学 科 科 技 进 步 的 领 
军力 量 。 在 学 术 界 已 经 关注 到 精英 学 者 与 普通 学 者 在 
学 术 生 涯 与 创造 力 上 的 差异 的 同时 ,政府 也 出 台 政 
策 加 大 对 科技 拔尖 人 才 与 优秀 科技 工作 者 的 鼓励 与 支 
持 “”。 这 部 分 研究 进一步 探查 精英 学 者 在 职业 高 峰 期 
前 后 研究 主题 的 转换 特征 ,以 期 为 国家 科技 政策 的 制 
定 与 实施 提供 科学 依据 。 目 前 ,学 术 界 对 精英 学 者 的 
识别 往往 根据 其 科研 成 果 贡 献 数量 (高 发 文 ) 被 学 术 
界 认 可 程度 (高 被 引 ) 等 指标 加 以 判 识 。 在 具体 的 研 
究 中 ,兼顾 发 文 量 与 被 引 量 指标 筛选 各 学 科 发 文 数 量 
排名 前 1% , 且 单 篇 论文 平均 被 引 频 次 排名 前 196 的 学 
者 。 同 时 ,为 使 结果 具有 普遍 性 ,不 考虑 "一 闪 即 逝 ” 
的 科研 人 员 ,确保 从 事 科 学 研究 不 小 于 10 年 的 高 发 文 
且 高 被 引 科研 人 员 作 为 领域 精英 学 者 展开 分 析 。 按 照 
上 述 标准 进行 筛选 ,获得 真菌 学 精英 学 者 170 位 ,图 书 
情报 学 精英 学 者 246 位 ,哲学 精英 学 者 97 位 。 如 果 说 
前 序 的 分 析 关 注 科 研 人 员 在 每 个 时 段 内 的 研究 主题 转 
换 幅 度 与 频繁 程度 ,那么 这 部 分 研究 则 更 关注 精英 学 
者 在 以 职业 高 峰 为 分 界线 的 前 后 两 个 阶段 的 研究 主题 
转换 的 差异 。 将 每 位 精英 学 者 在 职业 高 峰 期 之 前 和 职 
业 高 峰 期 之 后 所 发 表 的 文献 分 别 整合 成 两 个 长 文档 ， 
并 分 别 进 行 主 题 建 模 , 然 后 采用 公式 (2) 计算 高 峰 期 
前 后 的 主题 相似 度 得 分 。 得 到 精英 学 者 职业 高 峰 期 前 
后 的 主题 相似 度 得 分 分 布 如 图 3 所 示 , 横 轴 表示 学 者 
数量 占 比 , 纵 轴 表示 相似 度 得 分 区 间 。 
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图 3 精英 学 者 职业 高 峰 前 后 主题 相似 度 


图 3(a) (b)(c) 分 别 为 真菌 学 .图 书 情报 学 .哲学 
领域 精英 学 者 在 达到 职业 高 峰 前 后 的 研究 主题 相似 度 
得 分 分 布 。 总 体 上 看 ,各 学 科 精 英 学 者 在 经 过 职业 高 
峰之 后 ,其 研究 主题 与 到 达 高 峰 期 之 前 的 研究 主题 仍 
然 其 有 很 高 的 相似 性 。 各 学 科 精 英 学 者 在 职业 高 峰 期 
之 局所 选择 的 研究 主题 与 高 峰 期 之 前 相似 度 在 0.5 以 
420. 5) f A B is EE E] 3 8] 9796 以 上 (97. 1% 、 
99A 97.3% ) 。 在 高 峰 期 前 后 主题 相似 度 大 于 等 于 
0 的 条 件 下 ,3 个 学 科 精 英 学 者 的 占 比 分 别 为 
837996 .80.1% .64.9% 。 各 学 科 精 英 学 者 占 比 最 高 的 
主题 相似 度 得 分 区 间 分 别 为 [0.8, 0.9) [0.8, 0.9), 
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[0.7, 0.8) 。 这 一 结果 表明 ,各 学 科 中 大 多 数 精英 学 
者 都 能 够 在 职业 高 峰 期 之 后 仍然 保持 研究 主题 的 连续 
性 ,即使 发 生 一 定 程度 的 主题 迁移 ,也 依然 选择 与 早期 
研究 非常 相近 的 主题 (相似 度 得 分 高 ) 。 

显然 ,上 述 结果 与 此 前 针对 科研 人 员 总 体 队 伍 的 
分 析 结 果 并 不 完全 相符 ,因此 研究 工作 进一步 对 各 学 
科 精 英 学 者 职业 高 峰 期 之 后 与 职业 高 峰 期 之 前 主题 转 
换 概率 的 差 值 进行 计算 。 以 横 轴 表示 学 者 数量 占 比 ， 
纵 轴 表 示 差 值 的 区 间 ,精英 学 者 职业 高 峰 期 前 后 主题 
转换 概率 的 变化 情况 如 图 4 所 示 : 


(-04, -0.2 


(-0.6, -0.4 


(-0.8, -0.6 


[-1.0, -0.8 


图 4 精英 学 者 职业 高 


在 图 4 中 ,以 虚线 为 中 心 越 靠近 虚线 代表 精英 学 
者 在 职业 高 峰 期 之 后 与 职业 高 峰 期 之 前 相 比 其 研究 主 
题 转 换 概率 变化 越 小 。 上 半 部 区 域 距 离 虚 线 越 远 表 示 
职业 高 峰 期 之 后 主题 转换 概率 增加 的 值 越 多 ( 差 值 靠 
近 1) ;下 半 部 区 域 距离 虚线 越 远 则 表示 职业 高 峰 期 之 
后 的 主题 转换 概率 降低 的 值 越 多 ( 差 值 靠近 -1)。 从 
图 4(a)(b)(c) 反 映 的 真菌 学 、 图 书 情报 学 哲学 领域 
精英 学 者 高 峰 期 前 后 主题 转换 概率 变化 的 总 体 情况 


02 


峰 前 后 主题 转换 概率 变化 


看 ,大 多 数 精英 学 者 在 经 历 职业 高 峰 期 之 后 ,其 主题 转 
换 概率 变化 的 差 值 处 于 虚线 下 方 。 即 这 些 精 英 学 者 在 
经 历 个 人 职业 高 峰之 后 ,其 主题 转换 概率 呈现 不 变 或 
下 降 趋势 (虚线 下 方 包括 差 值 范 围 为 [ -1, 0])。 图 4 
中 内 构 的 饼 图 呈现 主题 转换 概率 增加 ( 差 值 >0)、 降 
低 ( 差 值 <0) ,不 变 ( 差 值 =0) 的 精英 学 者 占 比 。 从 内 
能 图 的 结果 看 ,各 学 科 精 英 学 者 在 经 历 职业 高 峰 后 ,大 
多 数 精英 学 者 的 主题 转换 概率 相 比 职业 高 峰 前 呈现 下 
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降 状态 (57.7% > 39. 496 ,63. 696 > 32. 496 ,60. 896 > 
28.490), Rh ,哲学 领域 精英 学 者 表现 最 为 明显 , 主 
题 转换 概率 下 降 的 精英 学 者 (60. 8% ) 超 过 主题 转换 概 
率 增加 的 精英 学 者 (28.4% ) 的 两 倍 。 而 且 , 图 4(c) 中 
也 反映 出 哲学 学 科 精 英 学 者 主题 转换 概率 下 降 的 幅度 
最 大 ( 差 值 靠近 - 1 的 人 员 占 比较 多 ) 。 这 一 结果 说 
明 ,精英 学 者 在 经 历 学 术 生 涯 的 高 峰 期 之 后 ,倾向 于 从 
事 比 高 峰 期 之 前 更 加 专 一 的 科学 研究 。 


6 结论 与 讨论 


笔者 采用 文献 计量 学 与 文档 主题 建 模 相 结合 的 方 
法 ,对 真菌 学 ,图书 情报 学 和 哲学 3 个 学 科 科研 人 员 职 
业 高 峰 及 其 相关 的 研究 主题 转换 特征 进行 探索 。 综 合 
-上述 分 析 的 结果 ,初步 得 出 以 下 结论 : 

全 (1 ) 科 研 人 员 总 体 上 在 经 历 职业 高 峰之 后 主题 转 
换 会 更 频繁 。 在 针对 科研 人 员 总体 的 分 析 中 ,尽管 职 
业 土 峰 前 后 的 主题 相似 度 差异 并 不 明显 ,但 是 主题 转 
fea — 指标 却 体现 出 职业 高 峰 前 后 的 明显 差异 。 
各 等 科 的 科研 人 员 在 经 历 职业 高 峰 期 之 后 的 主题 转换 
全 Te R 业 高 峰 期 之 前 的 主题 转换 率 
GRE). 一 结果 说 明 就 科研 人 员 的 总 体 而 言 ， 
Ka 
ANZA A POA RAE E e 
MIEZ NEME. 

(2 ) 精 英 学 者 在 经 历 了 职业 高 峰之 后 其 研究 主题 
23r —. bliss 的 主题 相似 度 表 
明 5 尖 多 数 精英 学 者 在 职业 高 峰 期 前 后 的 研究 主题 具 
是 ein 
转换 概率 相 比 高 峰 期 之 前 更 低 (参见 图 4) 。 这 一 
说 明 , 科 研 人 员 中 精英 学 者 的 主题 转换 表现 出 与 科研 
员 总 体 队伍 近 平 截然 相反 的 特征 : 越 是 在 科学 研究 
中 表现 优秀 的 精英 学 者 , 越 在 经 历 职 业 高 峰之 后 倾向 
于 更 加 专 一 的 研究 方向 ,其 研究 主题 也 越发 青睐 于 “十 
年 磨 一 剑 ”。 » 

在 科学 技术 飞速 发 展 的 今天 ,发 现 和 揭示 科研 人 
员 学 术 生 涯 发 展 过 程 中 的 模式 与 特征 ,有 助 于 揭示 科 
学 生产 力 发 展 机 制 ,对 于 科研 管理 部 门 制定 积极 的 科 
研 政策 ,更 好 地 引导 科研 人 员 实 现 科技 创新 ,具有 重要 
的 促进 作用 。 研 究 中 也 存在 一 些 不 足 之 处 ,在 自然 科 
学 .社会 科学 ,艺术 与 人 文科 学 中 各 选择 一 个 学 科 作为 
代表 , 尚 不 足以 覆盖 更 大 范围 的 科学 研究 领域 。 通 过 
主题 建 模 及 主题 相似 度 测度 科研 人 员 主 题 转换 偏重 语 
义 信息 ,对 于 更 细密 的 学 科 与 研究 方向 分 类 体现 尚 不 


完全 充分 。 未 来 的 研究 中 ,将 进一步 包容 更 广泛 的 科 

学 领域 ,采用 更 细致 的 分 析 方 法 展开 更 深入 的 研究 。 

参考 文献 : 

[1] HEt, HR, IEL 我 国 科 研 人 员 职 业 生 涯 成 长 轨迹 与 影响 

因素 研究 [J]. 科研 管理 , 2019, 40(10): 126 - 141. 

[2] MERTON R K. The matthew effect in science[ J]. International 

journal of dermatology, 1968 , 27 (3810) ; 56 - 63. 

[3] LIU L, WANG Y, SINATRA R, etal. Hot streaks in artistic, cul- 
tural, and scientific careers[ J]. Nature, 2018, 559(7714) ; 396 
- 399. 

[ 4 ] 中 共 中 央 , 国务 院 . 关于 进一步 弘扬 科学 家 精神 加 强 作 风 和 学 
风 建 设 的 意见 [EB/OL]. [2021 -07 -18]. http://www. gov. 
cn/zhengce/2019-06/11/content_5399239. htm. 


[5 ] RUAN W, HOU H, HU Z. Detecting dynamics of hot topics with 
alluvial diagrams ; a timeline visualization[ J]. Journal of data and 
information science, 2017 , 2(3) ; 37 -48. 

[ 6 ] 印 均 平 , 余 厚 强 . 科学 家 黄金 年 龄 影响 因素 的 综合 分 析 [ J]. 
情报 杂志 , 2014, 33(3): 11-15, 5. 


[7] COLE S. Age and scientific performance[ J]. American journal of 
sociology, 1979, 84(4) ; 958 - 977. 

[ 8 ] JONES B F, WEINBERG B A. Age dynamics in scientific creativi- 
ty[ J]. Proceedings of the national academy of sciences, 2011, 
108(47) : 18910 — 18914. 

[ 9 ] SIMONTON D K. Career landmarks in science; individual differ- 
ences and interdisciplinary contrasts [ J]. Developmental psychol- 
ogy, 1991, 27(1) ; 119 

[10] SIMONTON D K. Age and outstanding achievement; what do we 
know after a century of research? [J]. Psychological bulletin, 
1988, 104 (2) : 251. 

[11] BRODETSKY S. Newton; scientist and man[ J]. Nature, 1942, 
150(3816) . 698 —699. 

[12] STEPHAN P, LEVIN S. Age and the Nobel Prize revisited [ J]. 
Scientometrics , 1993, 28(3) ; 387 - 399. 

[13] LI J, YIN Y, FORTUNATO S, et al. Scientific elite revisited ; 
patterns of productivity, collaboration, authorship and impact[ J ]. 
Journal of the royal society interface, 2020, 17(165) ; 20200135. 

[14] JONES B F. The burden of knowledge and the “death of the re- 
naissance man" ; is innovation getting harder? [J]. The review of 
economic studies, 2009, 76(1) : 283 -317. 

[15] COKOL M, IOSSIFOV I, WEINREB C, et al. Emergent behavior 
of growing knowledge about molecular interactions[ J]. Nature bio- 
technology, 2005, 23(10) : 1243 - 1247. 

[16] SINATRA R, DEVILLE P, SZELL M, et al. A century of physics 
[J]. Nature physics, 2015, 11(10) ; 791 — 796. 

[17] PETERSEN A M, FORTUNATO S, PAN R K, et al. Reputation 
and impact in academic careers[ J]. Proceedings of the national a- 
cademy of sciences, 2014, 111(43) : 15316 — 15321. 

[18] PETERSEN A M. Quantifying the impact of weak, strong, and su- 


88 


ELE, IR A, Bi, 等 .科研 人 员 职 业 高 峰 前 后 的 研究 主题 转换 特征 识别 [J]. 图 书 情报 工作 ,2021 ,65(16) :81 - 89. 


JF! 


per ties in scientific careers[ J]. Proceedings of the national acade- 
my of sciences, 2015, 112(34) : e4671 — e4680. 

[19] 史 庆 伟 , 乔 晓 东 , 徐 硕 , 等 . 作者 主题 演化 模型 及 其 在 研究 兴 

趣 演化 分 析 中 的 应 用 [J]. 情报 学 报 , 2013, 32(9): 912 - 
919. 

[20] KE, 郭 思 月 , 滕 广 青 , 等 . 科研 人 员 研 究 主题 的 聚焦 与 迁 
BWR] 数字 图 书馆 论坛 , 2019(12) : 9 - 17. 

[21] UZZI B, MUKHERJEE S, STRINGER M, et al. Atypical combi- 
nations and scientific impact[ J]. Science, 2013, 342 (6157 ) : 
468 - 472. 

[22] GUIMERA R, UZZI B, SPIRO J, et al. Team assembly mecha- 


nisms determine collaboration network structure and team perform- 
ance[ J]. Science, 2005 , 308(5722) ; 697 — 702. 
[23] BOURDIEU P. The specificity of the scientific field and the social 
conditions of the progress of reason[ J]. Social science information, 
171975, 14(6) : 19 -47. 
OONLOR A, SZYMANSKI B K, ZAKI M J. Trends in computer 
Communications of the ACM, 2013, 56 


j 


"science research [ J ]. 
(10) ; 74 -83. 
ZHETSKY A, FOSTER J G, FOSTER I T, et al. Choosing ex- 
“periments to accelerate collective discovery[ J]. Proceedings of the 
national academy of sciences, 2015, 112(47) : 14569 — 14574. 
53 IA T, WANG D, SZYMANSKI B K. Quantifying patterns of re- 
ssearch-interest evolution [J]. Nature human behaviour, 2017, 1 
4); 78. 

[rV zENG A, SHEN Z, ZHOU J, et al. Increasing trend of scientists 


to switch between topics| J ]. Nature communications, 2019, 10 


Chen Lixue 


[28] HOFMANN T. Probabilistic latent semantic indexing [ C ]//Pro- 
ceedings of the 22nd annual international ACM SIGIR conference 
on research and development in information retrieval. New York; 
ACM, 1999; 50 - 57. 

[29] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation 
[J]. Journal of machine learning research, 2003, 3 (1); 993 - 
1022. 

[30 


dd 


ANGELOV D. Top2Vec: distributed representations of topics[ EB/ 
OL]. [2021 - 02 — 18]. https://arxiv. org/pdf/2008. 09470. 
pdf. 

[31] SALTON G, YU C T. On the construction of effective vocabularies 
for information retrieval[ J]]. Acm sigplan notices, 1973, 10(1): 
48 -60. 


[32] SINATRA R, WANG D, DEVILLE P, et al. Quantifying the evo- 


i 


lution of individual scientific impact [J]. Science, 2016, 354 
(6312) : 596. 

[33] FROSCH K H. Workforce age and innovation; a literature survey 
[J]. International journal of management reviews, 2011, 13(4): 


414 - 430. 


作者 贡献 说 明 : 
陈 立 雪 :数据 采集 与 分 析 , 论 文 撰写 ; 
腾 广 青 :提出 研究 思路 ,设计 研究 方案 ,论文 撰写 与 修 


Identification of Characteristics of Topic Change before and after Career Peak of Scientists 


Teng Guangqing Lü Jing Tuo Rui 
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Abstract: [ Purpose/significance | Exploring the individual career development of scientists and the transfor- 


ming laws of research topics can not only reveal the internal mechanism of the development of scientific productivity , 


but also help provide better policy guidance and support for the development of scientific undertakings. | Method/ 


process | Based on the representative discipline data of natural sciences, social science, art and humanities, this ar- 


ticle identified the career peaks of scientists. The career peak was used as the basis for dividing the academic career 


of scientists. The Top2Vec topic modeling method in natural language processing was used to identify research topics, 


and the topic similarity and topic transfer probability of the research topics at different stages of the academic career 


of scientists were measured. | Result/conclusion | The research results show that scientists in various disciplines 


generally change research topics more frequently after experiencing their career peaks, while elite scholars have more 


specific research topics after experiencing their career peaks. 
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